# Librerias a utilizar
library(phyloseq)
library(microbiome)
## Loading required package: ggplot2
##
## microbiome R package (microbiome.github.com)
##
##
##
## Copyright (C) 2011-2022 Leo Lahti,
## Sudarshan Shetty et al. <microbiome.github.io>
##
## Attaching package: 'microbiome'
## The following object is masked from 'package:ggplot2':
##
## alpha
## The following object is masked from 'package:base':
##
## transform
library(ggplot2)
library(vegan)
## Loading required package: permute
## Loading required package: lattice
##
## Attaching package: 'vegan'
## The following object is masked from 'package:microbiome':
##
## diversity
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
data("dietswap", package = "microbiome")
filo_sec <- dietswap
filo_sec
## phyloseq-class experiment-level object
## otu_table() OTU Table: [ 130 taxa and 222 samples ]
## sample_data() Sample Data: [ 222 samples by 8 sample variables ]
## tax_table() Taxonomy Table: [ 130 taxa by 3 taxonomic ranks ]
View(otu_table(filo_sec))
View(sample_data(filo_sec))
View(tax_table(filo_sec)) # no tiene tax table, pero podemos usar la informacion de rank
rank_names(filo_sec)
## [1] "Phylum" "Family" "Genus"
De acuerdo con el codigo anterior ¿Cuántas muestras y taxones contiene el objeto? - Tiene 222 muestras y 130 taxones
¿Qué variables están disponibles en los metadatos de las muestras? - Son 8, las cuales son: numero de muestra, nombre de la muestra, sexo, nacionalidad, grupo, punto de tiempo, punto de tiempo dentro de grupo, indice de peso.
Para realizar las curvas de rarefacción usaremos la función rarecurve de vegan.
Para ejecutar la función es necesario convertir nuestra otu table a un data frame o matriz, y posteriormente invertir la posición de las columnas con la de los renglones.
## quartz_off_screen
## 2
¿Qué indican estas curvas? - Nos dicen si el numero de muestreos por zona fue suficiente para capturar una riqueza de especies cercana a la realidad.
¿Hay muestras que deberían descartarse por bajo conteo? - Si, pero debido a que realice las graficas para conjuntos de 25 muestras no se sabe exactamente que muestra es, de manera que realice el siguiente codigo para averiguarlo.
## [1] "El tamaño muestral es: 10819 para la muestra 51"
## [1] "El tamaño muestral es: 10979 para la muestra 52"
## [1] "El tamaño muestral es: 8412 para la muestra 53"
## [1] "El tamaño muestral es: 23529 para la muestra 54"
## [1] "El tamaño muestral es: 16757 para la muestra 55"
## [1] "El tamaño muestral es: 1776 para la muestra 56"
## [1] "El tamaño muestral es: 12207 para la muestra 57"
## [1] "El tamaño muestral es: 10503 para la muestra 58"
## [1] "El tamaño muestral es: 6531 para la muestra 59"
## [1] "El tamaño muestral es: 14325 para la muestra 60"
## [1] "El tamaño muestral es: 13984 para la muestra 61"
## [1] "El tamaño muestral es: 8326 para la muestra 62"
## [1] "El tamaño muestral es: 11732 para la muestra 63"
## [1] "El tamaño muestral es: 9614 para la muestra 64"
## [1] "El tamaño muestral es: 8529 para la muestra 65"
## [1] "El tamaño muestral es: 8869 para la muestra 66"
## [1] "El tamaño muestral es: 10920 para la muestra 67"
## [1] "El tamaño muestral es: 8168 para la muestra 68"
## [1] "El tamaño muestral es: 14956 para la muestra 69"
## [1] "El tamaño muestral es: 9328 para la muestra 70"
## [1] "El tamaño muestral es: 10521 para la muestra 71"
## [1] "El tamaño muestral es: 10391 para la muestra 72"
## [1] "El tamaño muestral es: 10011 para la muestra 73"
## [1] "El tamaño muestral es: 12859 para la muestra 74"
## [1] "El tamaño muestral es: 5841 para la muestra 75"
La muestra que se deberia de descartar es la numero 56, ya que cuenta con 1776 individuos y no llega a su asintota. Esto lo comprobamos en la grafica, ya que es la unica linea cuyo tamaño muestral es menor a 5000.
Calcular y graficar los siguientes indices - Riqueza - Shannon - Simpson
## quartz_off_screen
## 2
## quartz_off_screen
## 2
## [1] 4.682131
## quartz_off_screen
## 2
¿Qué interpretas de estas gráficas? Que hay unformidad de abundancias entre hombres y mujeres, lo que cambia un poco es la presencia de “lean”, ya que hay más en hombres que en mujeres
¿Hay diferencias notorias entre grupos? Unicamente que hay más “lean” en hombres
Aplica un filtrado para quedarte solo con los géneros más abundantes de acuerdo a un criterio dado
## phyloseq-class experiment-level object
## otu_table() OTU Table: [ 98 taxa and 222 samples ]
## sample_data() Sample Data: [ 222 samples by 8 sample variables ]
## tax_table() Taxonomy Table: [ 98 taxa by 3 taxonomic ranks ]
## [1] 4.901961
## [1] 12.61261
## phyloseq-class experiment-level object
## otu_table() OTU Table: [ 98 taxa and 222 samples ]
## sample_data() Sample Data: [ 222 samples by 8 sample variables ]
## tax_table() Taxonomy Table: [ 98 taxa by 3 taxonomic ranks ]
###Diversidad beta Realizar una ordención PCoA utilizando distancia Bray-Curtis
# Primero usamos la funcion distance para obtener las distancias con el metodo Bray-curtis
ditancia_braycurtis <- distance(filo_sec, method = "bray")
# Ahora obtenemos las ordenadas
datos_ordenadas_pcoa <- ordinate(filo_sec, method = "PCoA", distance = ditancia_braycurtis)
# primero hacemos el grafico base generando los puntos y separandolos por color de acuerdo a las variables de los metadatos.
# Aquí mismo se generan los ejes de x y y, seleccionado el punto en el que intersectarán.
# Ademas se añadiran los elipses.
pdf("../03_Results/PCoA.pdf", width = 8, height = 6)
pcoa_plot<- plot_ordination(filo_sec, datos_ordenadas_pcoa,
type = "sample",
color = "group") +
geom_point(size = 0.5) +
geom_hline(yintercept = 0, color = "darkgreen", linetype = 5) +
geom_vline(xintercept = 0, color = "navy", linetype = 5) +
stat_ellipse(aes(group = group), level = 0.8, color = "darkred", linetype = "dashed")
# Los elipses generados son de acuerdo a los elementos dentro de la variable group, es decir : DI, HE y ED.
# Por ultimo se modificaran las etiquetas de los ejes y el titulo de la grafica
pcoa_plot +
ggtitle("PCoA (Bray-Curtis)") +
labs(x = paste0("PCoA1 (", round(datos_ordenadas_pcoa$values$Relative_eig[1] * 100, 1), "%)"),
y = paste0("PCoA2 (", round(datos_ordenadas_pcoa$values$Relative_eig[2] * 100, 1), "%)")) + # Etiquetas con porcentaje de varianza
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))
dev.off()
## quartz_off_screen
## 2
¿Los grupos se separan visiblemente? - no, hay un area muy grande en la que convergen las 3 elipses generadas.
¿Qué podría estar causando esas diferencias? - La ubicación geometrica que tiene cada muestra dentro de las coordenadas principales del grafico. - En este caso las coordenadas principales no son muy explicativas ya que la PCoA 1 explica tan solo un 42% de la varianza, mientras que la PCoA2 explica el 17.2%, eso implica que los grupos DI, HE y ED no son lo suficientemente explicativos como para realizar una agrupación eficiente de las muestras brindadas.
## quartz_off_screen
## 2
¿Qué tan dominada está la comunidad por pocos taxones y cuáles son? Esta muy dominada por pocos taxones, tanto que la mayor abundancia de la muestra se concentra en los primeros 6 taxones de la grafica
¿Qué tipo de distribución parece seguir? logaritmica
## quartz_off_screen
## 2
## quartz_off_screen
## 2
## quartz_off_screen
## 2
¿Hay algún phylum que domine? si, los firmicutes.
¿Se observan diferencias entre grupos? Los HE (azules) tienen una mayor abundancia que los ED (verdes), mientras que los DI (rojo claro) son los que tienen menor abundancia.
## phyloseq-class experiment-level object
## otu_table() OTU Table: [ 18988 taxa and 4 samples ]
## sample_data() Sample Data: [ 4 samples by 7 sample variables ]
## tax_table() Taxonomy Table: [ 18988 taxa by 7 taxonomic ranks ]
## phy_tree() Phylogenetic Tree: [ 18988 tips and 18987 internal nodes ]
## quartz_off_screen
## 2
## quartz_off_screen
## 2
## quartz_off_screen
## 2
## quartz_off_screen
## 2
## quartz_off_screen
## 2
## quartz_off_screen
## 2
## quartz_off_screen
## 2
## quartz_off_screen
## 2
## Permutation: free
## Number of permutations: 999
##
## Terms added sequentially (first to last)
##
## Df SumsOfSqs MeanSqs F.Model R2 Pr(>F)
## SampleType 8 7.7744 0.97180 4.4259 0.67562 0.001 ***
## Residuals 17 3.7327 0.21957 0.32438
## Total 25 11.5070 1.00000
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
¿Qué ambiente muestra mayor diversidad alfa? El suelo.
¿A qué factores podría deberse? A la disponibilidad de nutrientes para los organismos que estan presentes y a condiciones ambientales que favorecen su desarrollo en el mismo.
¿Qué se observa en la ordenación PCoA respecto a similitudes entre muestras? Los unicos grupos que se forman de manera notoria son los de las heces y los de el agua dulce, y esto se debe a la presencia y abundancia de ciertos phylos caracteristicos, tales como las cianobacterias en el aga dulce de arroyo. Con respecto al resto de grupos que se forman, podemos ver que se agrupan de manera indistinta, ya que hay grupos en los que hay muestras de suelo, oceano y sedimento, sin embargo, la formación de este conjunto no es diferencial.
¿Qué patrón de dominancia taxonómica muestran las curvas de rango-abundancia? Logaritmico o de cola larga
¿Qué phyla son dominantes en cada ambiente y qué implicaciones ecológicas sugieren? agua dulce- arrollo: cianobacterias suelo: proteobacteria mock: Abundancia uniforme de todos lo phyla sedimento: proteobacterias piel: proteobacterias y firmicutes heces: bacteroidetes Tongue: proteobacteria.
Si las muestras son representativas de cada ambiente del que fueron tomadas podria ser un indicador del bacterioma necesario para que la zona de la que fueron tomadas se conserve en el estado en el que estaba cuando se tomaron las muestras.